کلیدواژه ها، مهم ترین واژه های متن هستند که ایده بنیادین آن را در عباراتی کوتاه بیان می کنند. استخراج کلیدواژه یکی از کاربردهای پردازش زبان طبیعی است که پایه بسیاری از عملیات ها نظیر طبقه بندی، خوشه بندی و خلاصه سازی متون است. تاکنون، دادگان های متعدّدی برای ارزیابی استخراج کلیدواژه در فارسی ارائه شده اند که اغلب آن ها به واژگان کلیدی نویسندگان مقالات اکتفا کرده و به سایر کلیدواژه های بالقوه متن بی توجه اند. استفاده از چنین دادگانی، باعث ارزیابی نادرست روش های استخراج کلیدواژه می شود و دقت آن ها ناخواسته کاهش می یابد. در این پژوهش، ابتدا دادگان معیار نورواژه که از حدود 1400 مقاله علمی جمع آوری شده است، برای ارزیابی روش های استخراج کلیدواژه معرفی می شود. در این دادگان علاوه بر واژه های کلیدی نویسندگان، سایر کلیدواژه ها توسط افراد خبره استخراج شده اند. برای اثبات قابلیت استفاده این دادگان به عنوان معیار، روش های بی ناظر مختلفی روی آن آزمایش شده است. نتایج حاصل از این دادگان، مؤیّد نتایجی است که از سایر دادگان های معیار به دست می آید.